结合语言模型的自动文本分类的应用研究

doi:10.3969/j.issn.1006-2475.2010.03.040

计算机与现代化 ›› 2010, Vol. 1 ›› Issue (3): 141-3.doi: 10.3969/j.issn.1006-2475.2010.03.040

结合语言模型的自动文本分类的应用研究

赵敏涯

苏州市职业大学计算机工程系，江苏苏州 215104

收稿日期:2009-02-19 修回日期:1900-01-01 出版日期:2010-03-20 发布日期:2010-03-20

Application Study of Automatic Text Classification Combined with Language Model

ZHAO Min-ya

Department of Computer Engineering, Suzhou Vocation University, Suzhou 215104, China

Received:2009-02-19 Revised:1900-01-01 Online:2010-03-20 Published:2010-03-20

摘要/Abstract

摘要：

研究统计语言模型中bigram模型在自动文本分类中的应用，针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点，提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。

关键词: 统计语言模型, 文本分类, 平滑, bigram

Abstract:

This paper studies the application of bigram model from statistical language model in the automatic text classification. Referring to the shortcoming of the hypothesis that the terms are independent from each other in VSM (Vector Space Model), it puts forward a method to improve the result of text classification with mutual words’ information and sequence. The experiment shows that the method is feasible and efficient.

Key words: statistical language model, text classification, smoothing, bigram

赵敏涯. 结合语言模型的自动文本分类的应用研究[J]. 计算机与现代化, 2010, 1(3): 141-3.

ZHAO Min-ya. Application Study of Automatic Text Classification Combined with Language Model[J]. Computer and Modernization, 2010, 1(3): 141-3.

[1]	周宪溪, 牟莉. 基于改进TF-IDF和AGLCNN的新闻长文本分类模型[J]. 计算机与现代化, 2024, 0(08): 120-126.
[2]	张可1, 艾中良2, 刘忠麟3, 顾平莉1, 刘学林4. 基于多元组匹配损失的司法论辩理解方法[J]. 计算机与现代化, 2024, 0(06): 115-120.
[3]	徐涯昕, 何泽恩, 徐绪堪. 基于CNN-BiLSTM网络的数控机床故障文本自动分类[J]. 计算机与现代化, 2023, 0(04): 7-14.
[4]	杜传胜, 高焕兵, 侯宇翔, 汪子建. 基于改进双向A*算法的消防机器人路径规划[J]. 计算机与现代化, 2023, 0(04): 15-19.
[5]	张骁, 吕继宇, 赵爽, 吴羽纶, 王春乐. 基于多卷积神经网络融合的SAR舰船分类[J]. 计算机与现代化, 2023, 0(01): 37-42.
[6]	张军, 邱龙龙. 一种基于BERT和池化操作的文本分类模型[J]. 计算机与现代化, 2022, 0(06): 1-7.
[7]	徐鑫强, 何鹏, . 基于图过滤框架对图卷积滤波器灵活性的研究[J]. 计算机与现代化, 2022, 0(03): 103-110.
[8]	赵延平, 王芳, 夏杨. 基于支持向量机的短文本分类方法[J]. 计算机与现代化, 2022, 0(02): 92-96.
[9]	郭书武, 陈军华. 基于深度学习的教材德目分类方法[J]. 计算机与现代化, 2021, 0(09): 106-112.
[10]	贾澎涛, 孙炜. 基于深度学习的文本分类综述[J]. 计算机与现代化, 2021, 0(07): 29-37.
[11]	代继鹏, 邵峰晶, 孙仁诚. 基于改进CHI和TF-IDF的短文本分类的研究[J]. 计算机与现代化, 2021, 0(06): 6-11.
[12]	尼格拉木·买斯木江, 艾孜尔古丽·玉素甫. 基于BERT及双向GRU模型的慕课用户评论情感倾向性分析[J]. 计算机与现代化, 2021, 0(04): 20-26.
[13]	顾国庆, 李晓辉. 基于箱线图异常检测的指数加权平滑预测模型[J]. 计算机与现代化, 2021, 0(01): 28-33.
[14]	周灵, 张英俊, 潘理虎. 一种基于情感特征的短文本分类方法[J]. 计算机与现代化, 2020, 0(07): 80-84.
[15]	景栋盛, 薛劲松, 冯仁君. 基于深度Q网络的垃圾邮件文本分类方法[J]. 计算机与现代化, 2020, 0(06): 89-.

结合语言模型的自动文本分类的应用研究

Application Study of Automatic Text Classification Combined with Language Model

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价